数据架构概述

Catalogue
  1. 一、架构理解
    1. 1.1 企业数据架构蓝图
    2. 1.2 数据平台架构
    3. 1.3 核心架构理解
      1. 1.3.1 数仓架构
      2. 1.3.2 湖仓一体架构
      3. 1.3.3 数据中台架构
      4. 1.3.4 数据治理架构
      5. 1.3.5 数据安全架构
      6. 1.3.6 AI中台 / 算法平台架构
    4. 1.4 架构的“协同”
  2. 二、数据平台架构
  3. 三、专项子架构
    1. 2.1 数仓架构
      1. 2.1.1 概念关系
    2. 2.2 算法平台架构
    3. 2.3 AI中台

数据领域架构,除了常见的 数据处理架构 之外,还包括数仓架构、数据平台架构。 另外还包括 数据中台架构、数据治理架构、实时数据架构、数据湖架构、湖仓一体架构、云原生数据架构、数据安全架构等。以上架构的理解以及核心架构的深入,是数据架构师必备的技能和知识体系。

一、架构理解

企业数据架构蓝图是企业数据能力建设的顶层规划与全景视图,而数据平台架构是落地这一蓝图的核心载体。
围绕数据平台架构这一整体技术架构,展开各专项组件架构或子架构,包括 数仓架构、湖仓一体架构、数据中台架构等,为平台提供特定能力支撑。

对这些架构的核心关联理解,可以用 “底座 - 处理 - 服务 - 保障” 四层逻辑串联所有架构:

  1. 存储底座层:数据湖架构、数仓架构、湖仓一体架构
  2. 数据处理层:Lambda/Kappa 架构、实时数据架构
  3. 能力服务层:数据中台架构、AI 中台 / 算法平台架构
  4. 安全保障层:数据治理架构、数据安全架构
  5. 部署形态层:云原生数据架构

它们并非孤立存在,而是相互支撑、层层递进,共同构成企业数据能力的完整技术底座。

「明确各层架构的 “协同边界”,避免落地时割裂」
以上框架定义了核心架构的“分层”,但实际落地,层与层之间是协同而非独立的,需要考虑(补充)协同规则,否则容易出现 “数据存了但用不起来”、“服务建了但数据不可信” 的问题。

1.1 企业数据架构蓝图

数字化、数智化转型 背景下…

1.2 数据平台架构

数据平台架构是一个覆盖 “数据采集 - 存储 - 计算 - 治理 - 服务 - 安全” 全链路的综合性平台技术架构。

1.3 核心架构理解

1.3.1 数仓架构

数据仓库(数仓)架构:面向主题、集成的、非易失的、随时间变化的数据集合,专门用于支持管理决策。典型架构是分层架构(ODS 层→DW 层→DM 层)。

解决的问题:解决业务数据分散、数据口径不一致、历史数据难以追溯的问题,为报表分析、经营决策提供统一数据底座。

核心特点:结构化数据为主,数据写入后一般不修改,遵循严格的 schema(数据模型)。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

新的概念里,把OLTP的架构和OLAP的架构 两者进行了融合整体的考虑。

对于面向业务的架构,怎么设计概念模型、逻辑模型。
而面向数据分析的数据架构,数据采集回来是形成的最底层的贴源层、然后怎么变成上面的DWD和宽表层。
宽表层再怎么根据你实际的业务决策数据分析的目标的要求 变成上面的数据维度分析层。这个是OLAP的内容。
数据架构这个事情 一定离不开业务,因为数据建模、数据架构规划设计的源头是业务。

只有梳理分析清楚业务流程、业务活动、业务单元,才能识别出关键的数据对象。
这个时候 进行的数据建模这个工作,才能更好的支撑上层的业务运作。包括支撑端到端的业务流程,包括更上层的数据分析决策。


# 一、数据架构规划设计

这一类工作涉及哪些? 怎么做?

1.3.2 湖仓一体架构

融合数据湖的灵活性和数据仓库的规范性的架构,在数据湖的基础上,增加数仓的管理能力(如 ACID 事务、数据索引、数据治理)。

解决数据湖和数据仓 “各自为政” 的问题,让一份数据既可以支持探索性分析,又可以支持标准化报表。

代表技术:Delta Lake、Iceberg、Hudi。

1.3.3 数据中台架构

不是存储层面的架构,而是组织和能力层面的架构,通过整合企业全域数据,构建统一的数据资产中心,为业务前台提供可复用的数据服务。

解决的问题:解决数据孤岛、重复造轮子(各业务线重复开发数据需求)的问题,实现 “数据资产化、服务化”。

核心组成:通常包含数据采集、数据治理、数据开发、数据服务、资产目录等模块,底层可以对接数仓、数据湖或湖仓一体架构。

1.3.4 数据治理架构

核心定义:贯穿数据全生命周期的管理架构,目标是保证数据的 “准确性、完整性、一致性、安全性、可用性”。
解决的问题:解决数据质量差、数据权责不清、数据安全风险高的问题,让数据成为可信的资产。
核心模块:数据标准、数据质量、数据血缘、数据安全、元数据管理、数据生命周期管理。

1.3.5 数据安全架构

核心定义:保障数据在采集、传输、存储、使用、销毁全生命周期的安全架构,防范数据泄露、篡改、滥用风险。
核心内容:包含数据分级分类、访问权限控制、数据脱敏、数据加密、审计监控等能力。
定位:是所有数据架构的 “安全底座”,任何数据架构都必须嵌入数据安全能力。

1.3.6 AI中台 / 算法平台架构

当企业需要用数据做预测、建模时,会需要专门的 AI 中台架构 —— 它基于数据湖 / 湖仓一体的原始数据,提供特征工程、模型训练、模型部署的能力,本质也是数据能力的服务化输出,属于能力服务层的重要组成。

1.4 架构的“协同”

以上框架定义了核心架构的“分层”,但实际落地,层与层之间是协同而非独立的,需要考虑(补充)协同规则,否则容易出现 “数据存了但用不起来”、“服务建了但数据不可信” 的问题。

「存储底座与数据处理的协同」
湖仓一体架构之所以能替代传统数仓 + 数据湖的组合,核心是它打通了批处理和实时处理的存储层(比如 Delta Lake 支持流批一体),不需要在数仓和数据湖之间做数据拷贝。
实时数据架构的底层存储,既可以用 Kafka 这类消息队列(实时暂存),也需要对接湖仓一体(长期存储),二者是 “实时流转 + 长期沉淀” 的关系。

「能力服务与安全保障的协同」
数据中台的 “数据服务” 不能脱离数据治理 —— 中台对外提供的每一个数据 API,都必须有数据血缘、数据质量、权限管控的加持,否则就是 “裸奔的服务”。
数据安全架构是贯穿所有层级的:存储层要做数据加密,处理层要做脱敏计算,服务层要做接口鉴权,不能只把它当成独立的 “保障层”。

「部署形态层是 “赋能所有层” 的基础」
云原生数据架构不是一个 “独立叠加” 的层,而是改造所有层的技术底座:
存储底座层用云对象存储(S3/OSS)替代传统 HDFS;
数据处理层用 K8s 做计算资源的弹性调度;
能力服务层用微服务架构做数据中台的模块拆分。
它的核心是 “让所有上层架构更敏捷、更省钱”。

二、数据平台架构

作为综合性技术平台,把蓝图的战略目标,转化为可落地的技术架构,覆盖 “数据采集 - 存储 - 计算 - 治理 - 服务 - 安全” 全链路。

数据平台架构就是五层能力的集合体—— 底座、处理、服务、保障、部署这五层,共同构成了数据平台的完整能力。

三、专项子架构

2.1 数仓架构

2.1.1 概念关系

数据架构、数据工程、数据仓库三者是 “顶层规划→工程落地→核心载体” 的层层支撑关系,共同构成企业数据资产建设的 “从蓝图到落地” 全链路

数据架构(规划层):负责定义:数据仓库的技术选型(如用 Snowflake 还是 ClickHouse)、数据分层标准(ODS/DWD/DWS)、数据主题边界(如 “销售主题”“用户主题”);
不直接落地,而是输出 “数据仓库建设规范”,指导数据工程的具体工作。

数据工程(执行层)
按数据架构的规范,落地数据仓库的全流程:
采集:从业务系统 / 日志等多源数据接入;
加工:通过 ETL/ELT 清洗、转换数据,按主题建模(星型 / 雪花模型);
存储:将加工后的数据加载到数据仓库;
治理:监控数据仓库的质量、维护元数据;
同时,数据工程还会落地数据湖、实时流等其他载体,不局限于数据仓库。
数据仓库(载体层)
是数据工程的核心产出物之一,存储 “结构化、集成化、主题化” 的数据;
支撑下游应用(如 BI 报表、业务分析),是数据价值释放的关键节点。

数据仓库架构主要关注的是: 面向分析的结构化数据资产化,围绕数据整合、口径统一、高效查询、稳定支撑业务决策四大核心目标

2.2 算法平台架构

2.3 AI中台

与算法平台架构的关系:算法平台架构是 AI 中台的技术底座。

AI 中台是算法平台能力的价值放大器。AI 中台通过能力封装、场景化适配、权限管控,把算法平台的 “技术工具” 转化为 “业务服务”:

  • 比如把算法平台的 “分类模型” 封装成 “智能客服意图识别接口”;
  • 把 “回归模型” 封装成 “商品销量预测服务”。
    这样业务人员不用懂算法,直接调用接口就能实现 AI 赋能,让算法能力从 “实验室” 走向 “业务一线”。

「架构层面的整合关系」
在企业数据架构的能力服务层中,AI 中台和算法平台架构是一体化整合的,具体体现为:

  1. 数据链路打通:算法平台架构直接对接企业的存储底座层(湖仓一体..),获取训练数据;AI 中台则对接业务系统,获取推理数据并输出结果。
  2. 模型生命周期联动:从模型训练(算法平台)→ 模型注册 → 模型封装(AI 中台)→ 模型调用 → 模型监控与迭代(算法平台),形成闭环。
  3. 治理能力统一:二者共享企业的数据治理和数据安全架构能力 —— 比如特征数据的质量管控、模型接口的权限校验、敏感数据的脱敏处理,都遵循统一的治理规范。